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摘 要 : [目的 /意义 ] 将 从 互联 网 大 数据 中 无 监督 学 习 的 结果 迁移 到 目标 领域 ,解决 目标 领域 因 学 习 样 本 有 限 而 信息 识别 
效果 难以 提升 的 问题 。[ 方法/ 过程 ] 使 用 以 中 文 维基 百科 等 数据 预 训练 的 RoBERTa 模型 进行 迁移 学 习 , 将 学 习 
结果 映射 到 目标 领域 后 使 用 DPCNN 对 其 进行 聚合 凝练 ,然后 结合 部 分 标注 数据 微调 模型 完成 领域 信息 的 精准 识 
3]. [结果 /结论 ] 在 10 个 领域 内 与 未 进行 迁移 学 习 的 模型 及 经 典 模型 TextCNN 对 比 ,提出 的 模型 均 较 大 幅度 优 
于 对 比 模型 ,平均 后 的 精确 率 绝 对 提高 4.15% 、3. 4396 ,召回 率 绝对 提高 4.55% 、3. 44% ,Fl 分 数 绝 对 提高 


词 : 迁移 学 习 RoBERTa 


: TP391. 1 


信息 识别 


4. 5296 、3.44% ,表明 利用 网 络 大 数据 迁移 学 习 可 以 显著 提升 目标 领域 的 信息 识别 效果 。 


Geassing , NLP) 中 一 个 非常 重要 的 研究 方向 ,一 直 受 
机 科学 .语言 学 等 领域 学 者 的 关注 ,其 目的 是 从 
; 届 领 域 文本 集合 中 分 离 出 特定 领域 相关 的 信息 。 
户 秽 的 手段 是 通过 特征 工程 构造 出 一 系列 特征 后 使 用 
机 器 学 习 进行 处 理 , 或 者 直接 尝试 训练 CNN ( Convolu- 
sopal Neural Network) , RNN( Recurrent Neural Network ) 
等 深度 神经 网 络 来 学 习 用 于 信息 识别 的 隐藏 特征 ,这 
些 方法 的 本 质 是 从 观测 数据 中 构建 规则 并 对 观测 外 数 
据 进 行 推理 中 ,也 就 是 说 要 想 使 模型 推理 得 足够 准确 ， 
就 必须 使 用 足够 多 的 标记 数据 来 学 习 模 型 。 

为 了 保证 模型 性 能 ,用 于 特定 任务 的 大 规模 标记 
数据 的 收集 成 为 一 种 刚性 需求 ,这 种 需求 对 监督 学 习 
的 许多 应 用 场景 提出 了 重大 挑战 ,因为 这 些 数据 集 往 
往 需要 人 工 标注 ,成 本 高 . 耗 时 长 且 容 易 出 错 。 针 对 垂 
直 领 域 的 信息 识别 更 是 面临 如 此 困难 ,领域 自身 数据 
少 且 标注 困难 成 为 制约 模型 性 能 发 挥 的 关键 因素 。 而 
与 之 相反 的 是 , 随 着 Web2.0 的 盛行 ,用 户 成 为 虚拟 社 


区 资料 的 重要 创建 者 ,每 时 每 刻 都 在 互联 网 上 产生 大 
量 数据 ,其 中 不 乏 像 维基 百科 这 样 的 优质 内 容 。 

为 了 利用 互联 网 大 数据 的 优势 去 弥补 领域 数据 不 
足 的 劣势 ,笔者 使 用 RoBERTa 预 训练 模型 进行 迁移 学 
习 , 为 了 将 迁移 学 习 高 度 分 散 的 输出 结果 针对 领域 信 
息 进行 凝练 ,笔者 使 用 DPCNN(Deep Pyramid Convolu- 
tional Neural Networks ) 完成 对 迁移 结果 的 聚合 与 领域 
言 息 的 判别 。 最 后 为 了 检验 所 构建 模型 的 实际 效果 ， 
在 不 同 领域 对 模型 进行 实验 验证 。 


2 相关 研究 


2.1 领域 信息 识别 

领域 信息 识别 是 将 所 知 的 事物 运动 状态 及 其 变化 
方式 的 形式 或 这 种 形式 的 某 些 特征 参量 与 特定 属性 的 
“领域 模板 ”的 形式 或 它 的 特征 参量 进行 比较 ,根据 它 
们 之 间 匹 配 情况 的 差别 来 判断 该 信息 所 应 归属 的 领域 
类 别 中 。 广 义 上 的 领域 信息 识别 包括 文本 识别 .图像 
识别 和 语音 识别 ,狭义 上 仅 指 针对 文字 信息 的 识别 中 ， 
笔者 所 提 的 领域 信息 识别 均 指 其 狭义 概念 。 
随 着 信息 技术 的 飞速 发 展 ,各 个 领域 的 电子 文本 
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呈 指 数 级 增长 且 往 往 杂 乱 无 序 地 分 布 于 互联 网 社区 
内 ,对 领域 精准 研究 带 来 困难 。 仅 靠 人 力 难 以 去 处 理 
如 此 数量 的 信息 ,因此 需要 通过 技术 手段 来 实现 领域 
信息 的 自动 化 识别 。 学 者 们 在 不 断 深入 研究 的 过 程 中 
提出 了 大 量 经 典 的 方法 ,这些 方法 可 概括 为 两 种 类 型 : 
基于 统计 和 机 器 学 习 的 方法 .基于 深度 学 习 的 方法 。 

基于 统计 和 机 器 学 习 的 方法 一 般 分 为 两 个 步骤 ， 
首先 根据 字 词 的 统计 量 进行 特征 工程 ,接着 利用 机 
器 学 习 算 法 在 筛选 出 的 特征 上 进行 信息 识别 。 如 廖 列 
法 等 利用 LDA (Latent Dirichlet allocation ) 提取 主题 
特征 ,采用 KNN ( K-Nearest Neighbor) 分 类 方法 对 稀土 
领域 的 专利 文件 进行 识别 ,并 达到 了 较 好 的 识别 精度 。 
Jas KO 等 通过 共 词 分 析 和 SVM ( Support Vector Ma- 
chine ) 在 微 博 内 对 台风 灾害 信息 进行 了 识别 。 基 于 统 
二条 机 器 学 习 的 方法 曾 在 一 段 时 期 内 推动 了 领域 信息 
误 别 的 飞速 发 展 并 取得 了 一 系列 优秀 成 果 , 但 特征 提 
联 儿 识别 算法 分 离 的 做 法 使 得 识别 效果 高 度 依 下 于 特 
和 EB 程 ,特征 的 质量 直接 决定 了 模型 的 上 限 ,这 对 人 的 
才 提 出 了 较 高 要 求 。 所 以 随 着 神经 网 络 的 兴起 ,学 
和 柯 逐 渐 将 注意 力 转 移 到 无 需 人 工 构造 特征 的 深度 学 


中 基于 深度 学 习 的 方法 对 人 脑 的 神经 元 进行 了 模 
扰 , 通 常 将 目标 和 非 目标 领域 的 字 词 向 量化 表征 后 投 
入 僧 层 层 神经 网 络 中 ,利用 损失 函数 调节 神经 元 间 的 
途 萎 强度 ,实现 对 隐藏 特征 的 区 分 ,进而 达成 领域 信息 
识别 的 目的 。Y，Kim* 较 早 将 图 像 领 域 的 CNN. 应 用 
于 文本 信息 ,提出 了 TextCNN 模型 ,该 模型 一 经 发 布 即 
VS T MR (Movie Review) 等 多 个 开源 数据 集 的 纪录 ， 
随后 黄涛 "利用 该 模型 对 不 同 领域 的 新 闻 信息 进行 了 
识别 。 之 后 又 涌现 出 了 RENN .fasText!"! , DPC- 
NN 等 一 批 优秀 模型 ,其 中 DPCNN 更 是 在 不 增加 太 
多 计算 开支 的 条 件 下 便 可 捕获 更 长 的 文本 依赖 关系 ， 
在 自然 语言 处 理 领 域 产生 了 深刻 影响 。 目 前 ,基于 深 
度 学 习 的 方法 是 领域 信息 识别 的 主流 方法 ,被 广泛 应 


标 领 域 标注 少 甚至 无 标注 问题 的 解决 提供 了 方案 。 
迁移 学 习 最 早 应 用 于 计算 机 视觉 领域 ,B. Zhou 
等 ”在 ImageNet 和 Places 数据 集 上 进行 预 训练 ,然后 
将 迁移 学 习 结 果 与 小 规模 数据 集结 果 进 行 比较 ,有 力 
地 证 明了 迁移 学 习 可 以 取得 更 好 的 效果 。 

NLP 领域 的 迁移 学 习 起 步 相 对 较 晚 ,T. Mikolov 
A5 7 提出 word2vec , 即 利用 大 规模 语 料 仅 针对 模型 的 
第 一 层 进行 单词 语义 学 习 , 该 层 可 作为 其 他 模型 的 词 
嵌入 层 直接 使 用 ,该 方法 产生 了 较 大 影响 ,但 目标 任务 
仍 需 从 头 开 始 训练 。 直 到 2017 年 Google 提出 Trans- 
former gj ,该 结构 在 NLP 领域 具有 里 程 碑 式 的 意 
义 ,之 后 的 迁移 学 习 预 训练 模型 几乎 都 基于 Transform- 
er, 2018 年 ,基于 维基 百科 语 料 的 预 训练 模型 CPT' 
和 了 BERT' 出 现 ,几乎 刷新 了 所 有 的 NLP 任务 榜 单 。 
之 后 学 者 们 基于 BERT 又 提出 了 性 能 更 好 的 RoBER- 
Tal” ALBERT” 等 迁移 学 习 模 型 ,其 中 RoBERTa 模 
型 通过 改进 预 训练 任务 .使 用 更 大 批 次 等 方式 取得 了 
更 优 的 效果 ,笔者 使 用 该 模型 进行 迁移 学 习 。 

2.3 迁移 学 习 视角 下 的 领域 信息 识别 

从 迁移 学 习 的 视角 来 看 领域 信息 识别 ,主要 有 两 
个 问题 需要 解决 ,首先 是 如 何 进 行 迁 移 学 习 , 其 次 是 迁 
移 学 习 模型 的 输出 结果 如 何 使 用 。 

对 于 第 一 个 问题 , 随 着 预 训练 模型 的 出 现 学 界 和 
业界 的 研究 者 们 逐渐 达成 共识 ,即使 用 预 训 练 模型 进 
行 迁 移 学 习 , 这 样 只 要 在 预 训练 时 投入 足够 丰富 的 语 
料 ,就 可 以 完全 避免 从 头 开始 训练 用 于 迁移 学 习 的 模 
型 ,而 这 个 时 间 动 辆 需 消 耗 数 月 之 入。 目前 ,国外 已 经 
有 少量 学 者 开始 使 用 预 训练 模型 进行 迁移 学 习 从 而 完 
成 领域 信息 的 识别 ,如 N. Houlsby DH AE dE 17 个 公开 
数据 集 上 对 航空 经济、 自然 灾害 等 领域 进行 信息 识 
别 ,发 现 使 用 预 训练 的 BERT 后 识别 性 能 至 少 提升 
0.4% ,T. Sharma 4&7" 则 基于 RoBERTa 预 训练 模型 对 
食品 信息 获得 了 更 好 的 识别 效果 。 但 是 针对 中 文 的 迁 
移 学 习 预 训练 模型 出 现 较 晚 ,所 以 还 没有 看 到 有 国内 


用 于 学 术 界 和 产业 界 , 但 是 深度 学 习 方 法 存在 严重 的 
冷 启动 问题 ,需要 大 量 的 领域 标注 数据 对 模型 参数 进 
行 调整 。 

2.2 ”迁移 学 习 


学 者 使 用 其 对 领域 信息 进行 识别 。 

对 于 第 二 个 问题 , 现 有 的 研究 大 多 只 是 将 预 训练 
模型 的 输出 通过 Softmax 层 稍 作 修改 后 直接 应 用 于 有 具 
体 的 领域 信息 识别 任务 中 ,使 用 方式 较 简 单 却 也 能 取 


迁移 学 习 是 一 种 利用 已 经 相对 成 熟 的 领域 ( 源 领 
域 ) 的 知识 来 解决 相关 但 未 成 熟 领域 (目标 领域 ) 问 题 
的 一 种 机 器 学 习 方 法 , 它 有 效 放宽 了 传统 机 器 学 习 " 学 
习 过 程 需要 大 量 带 标 注 数 据 集 , 测 试 集 与 训练 集 需 满 
足 同 分 布 假 设 " 这 两 个 前 提 -” 。 迁 移 学 习 的 出 现 为 目 


得 不 错 的 效果 。 但 是 ,用 于 迁移 学 习 的 预 训 练 模型 由 
海量 数据 通过 无 监督 学 习 的 方式 训练 出 来 ,并 不 针对 
具体 问题 ,其 输出 结果 是 一 串 高 度 分 散 的 长 序列 ,如 果 
完全 依赖 预 训练 的 输出 而 不 进行 更 细 化 的 调整 ,很 容 
易 对 迁移 学 习 到 的 结果 造成 浪费 。 


— 
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针对 以 上 问题 ,笔者 设计 了 ”使 用 由 大 规模 中 文 语 
料 预 训练 出 的 RoBERTa 模型 进行 迁移 学 习 , 通 过 
DPCNN 对 迁移 学 习 结 果 进 行 聚 合 凝 练 "的 方案 对 领域 
信息 进行 识别 ,以 期 获得 更 佳 的 识别 效果 。 总 之 ,迁移 
学 习 还 是 一 个 新 兴 的 研究 领域 ,基于 迁移 学 习 的 领域 
信息 识别 仍 具 有 较 大 的 提升 空间 ,值得 学 者 们 展开 进 
一 步 的 深入 研究 。 


3 ”基于 迁移 学 习 的 领域 信息 识别 模型 构建 


为 了 利用 网 络 大 数据 的 优势 ,笔者 使 用 2019 年 刷 
新 多 项 NLP 任务 记录 的 RoBERTa 作为 迁移 学 习 的 预 
训练 模型 。 而 迁移 学 习 模型 输出 的 结果 是 一 个 高 度 分 
散 的 长 序列 ,为 了 捕获 到 输出 序列 的 远 距离 依赖 关系 
ji 村 信息 进行 聚合 ,笔者 使 用 DPCNN 模型 对 迁移 学 习 
结 时 进行 处 理 并 对 领域 信息 进行 判断 ,最 终 设计 的 模 
"yip LES 1。 

( 〇 首先 ,将 数据 集 按照 字 向 量 、 分 段 向 量 、 位 置 向 量 
的 对 层 结构 进行 嵌入 式 表征 (Embedding) ,然后 传递 到 


图 1 模型 架构 


使 用 中 文 维基 百科 等 数据 预 训练 的 RoBERTa 模型 中 ， 
接着 使 用 DPCNN 对 领域 信息 进行 识别 ,并 根据 标注 数 
据 的 反馈 情况 对 预 训练 模型 参数 进行 微调 ( Fine-Tun- 
ing) ,最 终 在 包含 众多 领域 信息 的 测试 集 内 得 到 指定 领 
域 的 信息 识别 结果 ,根据 识别 结果 进而 展开 模型 评 佑 。 
3.1 文本 表征 
模型 的 输入 由 字 向 量 ,分 段 向 量 \ 位 置 向 量 三 层 组 
合 而 成 ,如 图 2 所 示 。 第 一 层 字 向 量 是 词 表 中 每 个 To- 
ken 的 Embedding; 第 二 层 分 段 向 量 用 来 区 分 输入 文本 
的 不 同 句 子 , 同 一 句 话 的 分 段 向 量 相 同 , 如 果 输 入 单 句 
则 该 层 可 全 部 置 为 0; 第 三 层 位 置 向 量 记录 每 个 字 的 


[fini 


UT 


a 相对 位 置 和 绝对 位 置 。 图 中 的 [CLS] 和 [SEP] 分 别 是 
co 输入 文本 的 标记 符 和 句子 间 的 分 隔 符 。 

CN 

2 输入 [CLS] 我 爱 学 习 [SEP] 学 习 使 我 快 乐 [SEP] 

~ 字 向 量 | Ees | Eg Es | Ey | E; | Esr | Es | Eg Ex | Eg Eg E. | Een 

分 段 向 量 | E ]| E E | g& |] & ]| & J| & ]| & E& | & E, E, | E 

E 位 置 向 量 E, E, E E, E, E; E, E, b E, E, E, Eg 

c 2 输入 表征 
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上 图 中 位 置 向 量 可 按照 公式 (1) 计 算 , 其 中 pos 为 
字 词 的 绝对 位 置 ,i 表示 embedding 维度 中 的 位 置 ,d K 
示 向 量 维度 。 

PE 


= sin ( pos/ 10000" ) 


un | 公式 (1) 
PE 41) = 5in(pos/100007 * ^) 
基于 RoBERTa 的 迁移 学 习 
RoBERTa 是 Facebook 在 2019 年 发 布 的 一 个 针对 
NLP 任务 的 迁移 学 习 模 型 ,在 GLUE ,SQuAD 和 RACE 
3 个 榜 单 上 全 部 实现 了 最 佳 果 。 该 模型 在 预 训练 时 采 
用 了 BERT 的 遮蔽 语言 模型 机 制 ,但 区 别 于 BERT 的 
静态 遮蔽 ,RoBERTa 动态 地 对 每 次 输入 的 序列 进行 随 
机 遮蔽 ,然后 基于 上 下 文 对 谈 蔽 词 进 行 预测 ,其 遮蔽 机 
制 如 图 3 所 示 。 上 有 具体 地 ,从 每 次 输入 序列 中 随机 抽取 
15% 做 特殊 处 理 , 其 中 80% 的 概率 被 替换 为 ,10% 
的 概率 被 随机 替换 掉 , 剩 下 10% 的 概率 则 保持 不 动 。 


3:2 


然后 模型 对 Mask 掉 的 字 进 行 预测 ,虽然 只 对 输入 文本 
的 一 小 部 分 进行 了 预测 ,但 是 在 大 规模 语 料 的 填充 下 ， 
这 并 不 会 影响 模型 对 语言 的 理解 能 


m: 


RoBERTa 
[Mask] | [Mask] 使 | 我 快 乐 
预测 | 预测 
图 3 遮蔽 语言 模型 作用 机 制 


需要 注意 的 是 ,这 里 使 用 的 是 全 词 遮蔽 , 即 如 果 某 
个 被 Mask 掉 的 字 是 构成 词语 的 一 部 分 ,那么 就 将 这 个 
词 的 所 有 字 均 作 遮 项 处 理 。 这 其 实 增强 了 模型 处 理 复 
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杂 问 题 的 能 力 ,就 像 上 图 中 的 例子 ,如 果 在 知道 “学 ” 
的 条 件 下 去 预测 “ 习 ”, 那 么 无 疑 会 比 直 接 预测 学习” 
容易 得 多 。 

RoBERTa 模型 的 内 部 结构 如 图 4 所 示 , 图 中 每 个 
“Trm” 都 是 一 个 Transformer 的 Encoder 部 分 ,从 图 中 可 
以 明显 看 到 ,在 进行 层 与 层 间 的 递 进 时 ,任何 一 个 
“Trm” 均 使 用 注意 力 机 制 与 上 一 层 的 所 有 “Trm” 取得 
了 联系 ,也 就 是 说 这 种 结构 对 信息 是 一 种 全 方位 的 利 
用 ,而 不 像 传 统 的 LSTM ( Long Short-Term Memory ) 或 
Bi-LSTM( Bi-directional LSTM) 一 样 只 能 传递 单 向 或 双 
向 的 信息 。 


ES 


4 RoBERTa 模型 结构 


02304.00684v1 


CN 另外 值得 一 提 的 是 ,图 4 的 这 种 结构 是 一 种 高 度 
并 每 化 的 结构 ,每 个 序列 的 节点 生成 同时 进行 ,单个 节 
战 汪 不 依赖 于 之 前 或 之 后 的 计算 结果 ,所 以 基于 该 结 
peque ME xpi Ma 

语 料 信息 ,这 也 是 它 可 以 作为 迁移 学 习 模 型 发 挥 

token. 
3.3 基于 DPCNN 导向 的 微调 与 识别 

迁移 学 习 的 结果 是 一 个 较 长 序列 ,并 不 能 直接 应 
于 领域 信息 的 识别 ,必须 根据 任务 的 要 求 进行 进 一 
步 的 微调 。 为 了 捕获 到 该 长 序列 中 远 距 离 节 点 的 依赖 
关系 ,笔者 使 用 腾讯 AI-Lab 于 2017 年 提出 的 DPCNN 
对 领域 信息 聚合 后 进行 判断 ,再 将 判断 结果 反馈 到 迁 
移 学 习 模型 中 进行 参数 微调 ,该 过 程 见 图 5。 

DPCNN 将 RoBERTa 输出 的 Embedding 连续 投入 
到 两 个 卷 积 层 后 进行 1/2 池 化 ,然后 对 该 过 程 进行 重 
复 ,重复 时 为 避免 梯度 消失 对 输入 和 输出 使 用 残 差 连 
接 。 具 体 地 ,在 每 个 卷 积 块 后 执行 大 小 为 3 和 步 长 为 2 
的 最 大 池 化 ,这 种 池 化 策略 将 每 个 文档 的 内 部 表示 的 
大 小 减少 了 一 半 , Feature Map 数量 固定 的 情况 下 ,每 
当 执 行 2 步 下 采样 时 , 卷 积 核 的 有 效 覆盖 率 增加 了 一 
省 。 因 此 ,下 采样 周期 过 后 ,2 倍 距离 内 的 单词 之 间 产 


E 


[CLS] 


5 DPCNN 导向 的 微调 示意 


生 关 联 ,也 就 是 说 ,DPCNN 以 很 高 效 的 方式 捕捉 到 了 
更 远 的 信息 ,最终 对 全 局 信息 进行 了 利用 。 

此 外 ,用 步 长 2 进行 下 采样 时 ,每 个 卷 积 层 的 计算 
时 间 减 半 ( 数 据 大 小 减 半 ) ,从 而 形成 一 个 “金字 塔 ”， 
因此 总 的 计算 时 间 是 由 一 个 常数 限定 的 ,这 个 常数 是 
最 下 层 结构 计算 时 间 的 两 倍 ,这 使 得 DPCNN 在 计算 效 
率 上 也 很 有 优势 。 

从 图 6 可 以 更 直观 地 看 到 ,经 过 一 系列 深层 的 卷 
本 
距离 信息 进行 了 记录 与 聚合 。 图 中 每 展开 一 次 重复 ， 
上 层 节 点 探测 到 了 更 远 距离 的 信息 且 序 列 长 度 缩短 为 
原来 一 半 , 这 样 在 对 领域 内 容 进行 识别 时 可 以 对 信息 
展开 全 方位 的 利用 ,从 而 提高 信息 的 使 用 率 。 


Pooling, 1/2 


3 conv, 250 | T | l 


3 conv, 250 


SAADA 
图 6 DPCNN 作用 示意 


最 后 根据 领域 信息 的 标注 情况 进行 微调 时 ,论文 
使 用 交叉 炉 损 失 函 数 和 Adam 优化 器 对 整个 网 络 的 权 
重 进 行 调节 ,交叉 炉 损 失 如 公式 (2) 所 示 , 然 后 在 测试 
集 上 使 用 调整 后 的 最 终 模 型 对 领域 信息 进行 识别 并 完 
成 模型 评估 。 

J(0) = - Y" log h,(X) - (E - Y)" log(E -h,(X)) 


公式 (2) 
上 式 中 ,了 工分 别 表 示 标签 和 处 理 后 的 变量 矩阵 ， 
h, 代表 sigmoid 激活 函数 。 
4 ”实验 及 结果 分 析 
4.1 数据 集 


本 次 实验 使 用 由 胡 文 星 二 次 整理 的 清华 大 学 自然 
语言 处 理 实验 室 发 布 的 THUCNews 数据 集 ,该 数据 
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集 采 集 自 新 浪 网 站 ,由 财经 房产、 股票 教育 .科技 、 社 
会 .时 政体 育 游戏 .娱乐 十 大 领域 的 文本 数据 构成 ， 
每 个 领域 各 包含 20 000 条 数据 ,总 计 200 000 条 ,实验 
按照 “训练 集 :验证 集 :测试 集 =18:1:1” 的 比例 对 数据 
集 进行 划分 后 使 用 。 用 于 迁移 学 习 的 RoBERTa 预 训 
练 模型 ”由 哈工大 讯 飞 联合 实验 室 发 布 ,该 模型 使 用 
了 中 文 维 基 百 科 ( https://dumps. wikimedia. org/ zhwi- 
ki/latest/ ) 和 问答 数据 等 (BQ corpus , CHNSENTICORP , 
CJRC,CMRC2018 , LCQOMC, MSRA, PFR | XNLI) 通用 语 
料 进行 训练 。 需 要 注意 的 是 ,维基 百科 由 全 球 知识 贡 
献 者 们 编辑 而 成 ,数据 质量 可 以 得 到 有 效 保证 ,但 互联 
网 是 一 个 相对 开放 的 平台 ,其 上 产生 的 数据 往往 包含 
许多 噪声 信息 ,直接 使 用 势必 对 模型 精度 造成 影响 , 故 


模型 在 预 训练 过 程 中 对 所 使 用 的 补充 语 料 进行 了 严格 
过, 即 上 述 补 充 语 料 均 为 NLP 领域 广泛 使 用 的 公开 


AONI fA TESA o 


< 二 实验 使 用 的 硬件 信息 如 下 , GPU; Quadro 


IDIA 驱动 :418.56,CUDA 版 本 :10. 1 ,编程 语言 :Py- 
| 


CN 


.7 ,深度 学 习 框 架 :PyTorch1.5。 

实验 方案 

为 观察 笔者 所 构建 模型 对 领域 信息 识别 的 实际 效 
果 3 问 时 设计 了 3 组 对 照 实验 :使 用 仅 有 训练 集 数据 
IIHI RoBERTa 模型 ( 即 未 进行 迁移 学 习 ) 并 配合 
DRONN 对 领域 信息 进行 识别 ;@@ 仅 使 用 迁移 学 习 后 的 
RoBERTa 对 领域 信息 进行 判断 ; @ 使 用 经 典 的 深度 学 
习 模 型 TextCNN 。 最 终 形成 的 实验 框架 如 图 7 所 示 ; 


RoBERTa 


迁移 学 习 
(维基 百科 预 训练 ) 


无 迁移 学 习 
( 训练 集 预 训练 ) 


RoBERTa ( 迁移 学 习 ) 


7 实验 框架 设计 图 


最 后 采用 精确 率 、 召 回 率 以 及 了 1 分 数 作为 评价 指 
标 对 模型 的 信息 识别 结果 进行 评价 。 其 中 ,精确 率 是 
指 模型 判断 为 正 样本 的 数量 中 真实 正 样 本 所 占 的 比 
例 , 召 回 率 是 指 真实 正 样 本 中 被 模型 正确 识别 出 的 比 
例 ,F1l 分 数 是 二 者 的 调和 平均 数 。3 个 指标 的 计算 公 
式 如 下 : 


精确 率 P - TP/(TP + FP) 公式 (3) 
召回 率 R=7TP/(TP + FN) 公式 (4) 
Fl= 2P* R/(P +R) 公式 (5) 


公式 (3) 和 (4) 中 ,TP 表示 将 真实 正 样本 预测 
为 正 样本 的 数量 ,FP 表示 将 真实 负 样 本 预测 为 正 样 
本 的 数量 ,FN 表示 将 真实 正 样 本 预测 为 负 样 本 的 
数 
4.3 实验 结果 分 析 

在 测试 集 上 使 用 笔者 所 构建 模型 和 其 余 基 线 模 
型 分 别 对 各 领域 信息 进行 识别 并 评估 ,将 各 模型 的 
精确 率 、 召 回 率 和 Fl 分 数 进 行 计 算 、 统 计 后 汇总 成 
表 1。 表 中 “TL” 和 “NoTL” 分 别 表示 经 过 迁移 学 习 和 
未 经 过 迁移 学 习 的 RoBERTa A, “D” Jy DPCNN fi 
型 。 


fir 


o 


R1 模型 性 能 评估 


qu 精确 率 召回 率 FI 分 数 

TL+D NoTL+D TL TextCNN TL+D NoTL+D TL TexCNN TL+D NoTL+D TL TexiCNN 
财经 0.93221 0.9310 0.9290 0.9122 0.9340 0.8630 0.9270 0.8930 0.9331 0.8957 0.9280 0.9025 
房产 0.9629 0.9324 0.9475 0.9080 0.9590 0.9110 0.9570 0.9470 0.9609 0.9216 0.9522 0.9271 
股票 0.9026 0.8957 0.8898 0.8758 0.8990 0.7900 0.8960 0.8390 0.9008 0.8395 0.8929 0.8570 
教育 0.9680 0.9708 0.9621 0.9594 0.9690 0.9320 0.9650 0.9450 0.9685 0.9510 0.9636 0.9521 
科技 0.9018 0.7617 0.8709 0.8648 0.9090 0.8980 0.9040 0.8700 0.9054 0.8242 0.8871 0.8674 
社会 0.9351 0.8746 0.9331 0.9032 0.9510 0.9280 0.9140 0.9140 0.9430 0.9005 0.9235 0.9085 
时 政 0.9289 0.8614 0.9172 0.8802 0.9270 0.9260 0.9080 0.9110 0.9279 0.8925 0.9126 0.8953 
体育 0.9900 0.9249 0.9880 0.9711 0.9890 0.9850 0.9860 0.9410 0.9895 0.9540 0.9870 0.9558 
游戏 0.9760 0.9677 0.9543 0.9087 0.9350 0.8390 0.9290 0.9260 0.9551 0.8988 0.9415 0.9173 
娱乐 0.9483 0.9106 0.9454 0.9195 0.9720 0.9170 0.9700 0.9140 0.9600 0.9138 0.9576 0.9168 
均值 0.9446 | 0.9031 0.9337 0.9103 0.9444 0.8989 0.9356 0.9100 0.9444 0.8992 0.9346 0.9100 


TE: TL - 迁移 学 习 ;NoTL -未 迁移 学 习 ;D-DPCNN 
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在 表 1 中 ,对 比 < TL+D, NoTL +D, TextCNN > 
这 组 实验 ,可 以 明显 发 现 未 进行 迁移 学 习 的 RoBERTa 
+ DPCNN 模型 实际 效果 要 比 经 典 的 深度 学 习 模 型 
TextCNN 稍 差 些 ,但 使 用 迁移 学 习 后 各 项 指标 都 得 到 
了 显著 提高 。 将 表 1 中 各 领域 内 每 组 统计 指标 下 的 最 
高 值 进 行 加 粗 表示 后 可 以 明显 看 到 ,基于 迁移 学 习 的 
RoBERTa + DPCNN 模型 在 各 项 指标 下 几乎 都 占据 了 
榜首 位 置 ,对 比 经 典 的 TextCNN 模型 ,各 领域 的 精确 
A ABZ FL 分 数 平均 后 的 绝对 提高 值 分 别 为 
3.43% 3.44% 和 3.44% ;对 比 未 迁移 学 习 的 RoBERTa 
+ DPCNN 模型 ,分 别提 高 4. 15% 、4.55% 和 4.52% 。 
这 些 数据 可 以 充分 表明 ,在 进行 领域 信息 识别 时 引入 
迁移 学 习 方 法 可 以 充分 发 挥 大 数据 的 优势 ,改善 模型 
的 识别 性 能 。 
达 另 外 也 可 以 看 到 ,对 教育 领域 的 信息 进行 识别 时 ， 
训练 集训 练 出 的 RoBERTa + DPCNN 模型 比 迁 
习 后 的 模型 精确 率 还 要 稍 高 些 , 但 继续 观察 召回 
标 就 可 以 发 现 ,精确 率 的 略微 提高 是 以 较 大 幅度 


辆 辐 召 回 率 作为 代价 的 ,这 对 于 领域 信息 识别 的 任务 


而 车 是 较 难 接受 的 ,因为 会 漏 检 相当 一 部 分 领域 相关 
售 册 ,所 以 综合 下 来 其 Fl 分 数 低 于 迁移 学 习 后 的 模 
型 局 同时 观察 全 部 数据 可 以 发 现 “NoTL + D” 模 型 的 
三 剖 率 整体 偏 低 ,通过 进一步 的 分 析 , 笔 者 认为 该 模型 
是 写 个 参数 量 很 大 的 复杂 模型 ,而 训练 集 的 样本 数量 
毗 , 当 所 处 理 的 问题 同样 比较 复杂 时 整个 模型 的 参 
数 宇 于 * 欠 学 习 " 状 态 ,所 以 不 足以 拟 合 到 足够 多 的 特 
征 来 对 领域 信息 进行 很 好 的 判断 。 但 是 如 果 放 到 迁移 
学 辐 环 境 中 ,因为 有 足够 的 语 料 来 支撑 模型 训练 ,所 以 
不 存在 这 个 问题 。 

继续 观察 < TL D, TL, TextCNN > 这 组 实验 ,可 
以 进一步 发 现 , 相 比 于 传统 的 深度 学 习 模 型 TextCNN , 
迁移 学 习 后 的 模型 在 各 项 指标 上 几乎 均 实现 了 超越 ， 
仅 使 用 预 训练 RoBERTa 模型 就 在 精确 率 、 召 回 率 、.Fl 
分 数 3 个 指标 上 对 TextCNN 平均 提升 了 3. 34% , 
2.56% .2.46% 。 再 仅 观 察 < TL +D, TL > 该 组 实验 ， 
发 现 使 用 DPCNN 对 迁移 学 习 结 果 进 行 处 理 后 ,模型 性 
能 得 到 了 进一步 提高 ,精确 率 召回 率 .Fl 分 数 平均 提 
高 1.09% .0.88% 和 0.98% 。 这 说 明 对 预 训练 模型 的 
输出 展开 进一步 的 细 化 调整 可 以 再 次 提升 模型 性 能 ， 
避免 对 迁移 学 习 的 结果 造成 浪费 。 

此 外 ,对 上 述 的 识别 结果 展开 进一步 的 人 工分 析 
后 有 如 下 发 现 :四 相 比 于 未 经 过 迁移 学 习 的 模型 ,迁移 
学 习 后 的 模型 对 文字 中 不 包含 明显 领域 特点 的 信息 具 


有 更 好 的 识别 效果 。 例 如 ,时 政 领域 下 的 一 则 新 闻 ^ 3 
将 继续 加 大 对 传销 犯罪 的 惩处 力度 ” ,全文 并 未 涉及 
政策 .局 势 等 相关 字眼 ,但 语义 层面 的 确 属 于 时 政 领 
域 , 最 终 只 有 < TL+D, TL > 两 组 迁移 学 习 模 型 识别 
出 了 该 信息 。@ 对 于 可 能 包含 多 个 主题 的 领域 信息 ， 
所 有 模型 的 识别 结果 均 较 差 。 例 如 "热门 学 科大 揭秘 : 
金融 外 贸 类 专业 就 业 实情 "这 则 新 闻 ,新 闻 实 际 上 是 在 
分 析 热 门 学 科 ,理应 归属 教育 领域 ,只 是 该 学 科 和 人 金融 
有 关 , 从 而 导致 所 有 模型 在 对 教育 信息 识别 时 均 未 识 
别 出 该 则 新 闻 ,相反 , 在 对 财经 信息 进行 识别 时 ,所 有 
模型 均 错误 地 将 其 识别 出 。 

对 领域 信息 识别 而 言 ,实际 应 用 环境 会 更 加 复杂 ， 
目标 领域 所 涵盖 的 信息 数量 要 远 低 于 真实 空间 内 的 信 
息 总 量 , 即 二 者 的 数据 量 处 于 高 度 不 平衡 状态 。 为 了 
进一步 评估 模型 的 准确 性 和 再 不 平衡 样本 空间 下 的 泛 
化 能 力 ,笔者 分 别 在 10 个 领域 内 对 各 模型 进行 ROC 
( Receiver Operating Characteristic ) 曲线 的 绘制 , 见 图 8。 
图 中 模型 后 括号 内 的 值 代 表 ROC 曲线 覆盖 下 的 
AUC( Area Under Curve) 面积 ,该 值 一 方面 可 以 作为 模 
型 准确 性 评估 的 参考 , 另 一 方面 则 在 很 大 程度 上 代表 
了 模型 在 非 均 衡 数据 集 下 的 表现 能 力 。 从 图 中 可 以 看 
到 ,测试 的 几 个 模型 的 AUC 值 均 比较 高 ,但 总 体 上 还 
是 经 过 迁移 学 习 后 的 模型 在 非 均 衡 数 据 集 上 的 泛 化 能 
力 更 好 些 。 将 每 个 模型 在 所 有 领域 的 AUC 平均 后 ， 
TL-RoBERTa + DPCNN , NoTL-RoBERTa + DPCNN , TL- 
RoBERTa 和 TextCNN 的 AUC 值 分 别 为 0. 990,0. 981, 
0.985 和 0. 986 ,同样 表明 笔者 所 构建 的 模型 表现 最 
佳 ,具有 更 好 的 泛 化 性 能 。 


5 结语 


Bi 


笔者 针对 领域 数据 较 难 获取 、 在 有 限 数 据 集 上 模 
型 性 能 再 难以 提升 的 问题 ,提出 一 种 利用 迁移 学 习 对 
领域 信息 进行 更 精准 识别 的 方法 。 实 验 结果 表明 ,使 
用 迁移 学 习 后 的 RoBERTa + DPCNN 模型 相 比 无 迁移 
学 习 的 模型 和 经 典 的 Text CNN. 深度 学 习 模 型 在 性 能 
有 了 大 幅 提 升 ,平均 后 的 精确 率 绝对 提高 4. 15% 、 
3.43% ,召回 率 绝对 提高 4.55% 、3.44% ,Fl 分 数 绝对 
提高 4.52% 3.44% ,充分 证 明了 迁移 学 习 的 有 效 性 。 
另外 ,使 用 DPCNN 对 迁移 学 习 模 型 的 输出 进行 聚合 凝 
练 后 ,精确 率 召回 率 Fl 分 数 分 别 平均 提高 1. 09% 、 
0.88% ,0. 9896 ,说 明 对 迁移 学 习 结 果 进 行 更 细 化 的 调 
整 有 利于 提高 模型 的 识别 性 能 。 

论文 也 有 不 足 之 处 ,在 对 迁移 学 习 模 型 进行 微调 
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图 8 模型 ROC 曲线 图 


时 ,笔者 保留 了 原 预 训练 模型 的 全 部 参数 ,但 是 有 研 
究 表明 ,针对 性 地 对 迁移 模型 的 参数 进行 取舍 可 以 
在 实际 任务 中 获得 更 好 的 表现 。 下 一 步 工作 中 ,将 针 
对 此 问题 做 更 具体 地 研究 ,以 期 获得 更 佳 的 领域 信息 
识别 效果 。 
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Abstract: | Purpose/significance | To solve the problem that the identification effect of the target domain infor- 


mation is difficult to improve because of not enough samples, we will transfer the results of unsupervised learning 


from big data to the feature space of the target domain. | Method/process | Used the RoBERTa model, which was 


pre-trained with Chinese Wikipedia and other data, for transfer learning. After mapping the learning results to the 


target domain, DPCNN was used to aggregate and condense it, and then fine-tuned the model with part of the labeled 


data to complete the accurate recognition of domain information. | Result/conclusion | Compared with the model 


without transfer learning and the classic model TextCNN in 10 fields, the model in this paper is much better than the 


comparison models. After average, the precision is increased by 4. 15% and 3.43% , the recall is increased by 4. 


5596 and 3. 4496 , and the F1 score is increased by 4. 5296 and 3. 4496. It shows that knowledge transfer using big 


data can effectively improve the information recognition effect in the target field. 
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